http://www.arocmag.com/article/02-2019-02-027.html 


基于 B-list 的 最 大 频繁 项 集 挖掘 算法 


张 昌 了 了?， 文 风电， 郑 云 俊 ! 
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摘 要 : 针对 现 有 的 最 大 频繁 项 集 挖掘 算法 挖 据 时 间 过 长 、 内 存 消耗 较 大 的 问题 ， 提 出 了 一 种 基于 构造 链表 B-list 的 
最 大 频繁 项 集 挖 气 算 法 BMFI, 该 算法 利用 B-list 数据 结构 来 挖掘 频繁 项 集 并 采用 全 序 搜索 树 作 为 搜索 空间 ,然后 采用 
父 等 价 剪 枝 技术 来 缩小 搜索 空间 ， 最 后 再 结合 基于 MFT-tree 的 投影 策略 实现 超 集 检测 来 提高 算法 的 效率 。 实 验 结果 表 
明 ，BMFI 算法 在 时 间 效 率 与 空间 效率 方面 均 优 于 FPMAX 算法 与 MFIN 算法 。 该 算法 在 稠密 数据 集 与 稀疏 数据 集中 
进行 最 大 频繁 项 集 挖 据 时 均 有 良好 的 效果 。 
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Maximal frequent itemset mining algorithm based on B-list 
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China; 2. Chongqing Information Technology Designing Co. Ltd, Chongqing 401121, China) 


Abstract: In order to solve the problems that existing in the maximal frequent itemset mining algorithms, such as the mining 
time is too long and the memory consumption is too large, this paper presents a maximal frequent itemset mining algorithm 
BMFI which employs B-list to mining frequent itemsets and employs the whole sequence search tree as the search space, then, 
the parent equivalence pruning technique is used to reduce the search space. Finally, which combined with the MFI-tree-based 
projection strategy to achieve superset detection to improve the efficiency of the algorithm. The experimental results show that 
the performance of BMFI algorithm is superior to FPMAX algorithm and MFIN algorithm in terms of time efficiency and spatial 


efficiency. The proposed algorithm has good performance when mining the maximal frequent itemset in dense data set and 


sparse data set. 
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繁 项 集 挖 掘 算法 进行 了 深入 研究 ，Bayardo 等 人 四 提出 了 

MaxMiner 算法 , 该 算法 采用 了 广度 优先 搜索 策略 和 基于 动态 排 

数据 挖掘 是 从 大 型 数据 集中 挖掘 模式 的 一 种 计算 过 程 。 频 。 ” 序 的 超 集 检测 方法 。Agrawal 等 加 提出 了 DepthProject 算法 ,该 

繁 模式 挖掘 挖掘 经 典 算法 包括 Agrawal 等 人 中 在 1994 年 提出 的 ”算法 不 仅 采 用 了 深度 优先 搜索 策略 和 基于 动态 排序 的 超 集 检测 
Apriori 算法 、Han 等 人 外 在 2004 年 提出 的 FP-growth 算法 等 。 ”方法 之 外 , 还 采用 了 基于 桶 计算 的 的 项 集 计 算 方法 。Burdick 等 
关联 规则 被 广泛 应 用 于 “购物 篮 " 分 析 、 电 子 商务 以 及 医学 等 领 “人 外 提出 了 MAFIA 算法 ， 该 算法 采用 了 DFS 策略 ， 并 且 提 出 
域 。 在 挖掘 频繁 模式 的 过 程 中 ， 也 会 遇 到 一 些 现实 的 问题 ， 例 “了 结合 DFS 的 剪 枝 策略 PEP、FHUT、MFIHUT 和 Dynamic 
如 在 挖掘 一 个 稠密 的 数据 集 时 , 若 最 小 支持 度 阔 值 设置 较 低 时 ， ”Reordering， 同 时 还 采用 了 一 种 高 效 的 超 集 检测 策略 LMFI。 
那么 产生 的 频繁 模式 的 数量 就 会 非常 庞大 。 另 一 方面 ， 当 频繁 。 Grahne 等 人 口 提 出 了 FPMAX 算法 ， 该 算法 先 根据 事务 数据 库 
项 集 较 长 时 ， 其 频繁 非 空 子 集 的 数量 也 会 非常 庞大 。 所 以 在 这 ”建立 FP-tree， 再 采用 基于 MFI-tree 的 投影 策略 实现 超 集 检测 ， 
种 情况 之 下 ， 将 所 有 的 频繁 项 集 都 挖掘 出 来 是 不 可 行 的 。 从 而 提升 了 算法 的 性 能 。 沈 戈 晖 等 四 在 深度 优先 搜索 的 基础 之 
最 大 频繁 项 集 是 频繁 项 集 的 一 种 紧凑 表示 ， 具 备 更 高 的 挖 上， 引入 了 基于 N-list 最 大 频繁 项 集 挖 掘 算 法 ， 该 算法 利用 了 
轴 效 率 申 。 若 一 个 频繁 项 集 S 满足 其 真 超 集 都 是 不 频繁 的 ， 那 。” N-list 的 高 效 压缩 率 与 高 效 求 交集 的 特点 ， 并 采用 了 搜索 空间 
么 称 $ 是 最 大 频繁 项 集 。 近 年 来 有 很 多 的 专家 学 者 都 对 最 大 频 ”的 剪 枝 策略 与 超 集 检测 方法 提升 了 挖掘 效率 ， 但 该 算法 在 数据 
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录用 稿 张 昌 ， 等 : 基于 B-list 的 最 大 频 葵 项 集 挖 据 算 法 
集 稀 玻 的 情况 下 ， 算 法 性 能 有 待 提 高 。 林 晨 等 四 提出 了 基于 表 1 事务 数据 集 DB 
Nodeset 的 最 大 频繁 项 集 挖掘 算法 一 MFIN 算法 , 该 算法 采用 ] ID Items Order frequent items 
POC-tree 结构 对 1 @,a,c Ce,a 

节点 编码 ， 用 全 序 搜索 作为 搜索 空间 ， 然 后 结合 了 父 等 价 2 abcgf beta 
剪 枝 等 技术 对 数据 进行 剪 枝 处 理 ， 提 高 了 算法 的 效率 。 当 数据 3 ecbfi bicef 
量 较 大 时 该 算法 也 会 存在 运行 时 间 过 长 和 内 存 消耗 大 的 问题 ， 4 bhe be 
挖掘 效率 有 待 提高 。 在 2015 年 Deng 等 0 提出 了 基于 N-list 的 5 pfed bef 
PrePost+ 算 法 ， 该 算法 运用 的 是 子孙 -祖父 等 价 的 剪 枝 技术 ， 使 
用 这 种 剪 枝 技 术 在 挖掘 频繁 项 集 方面 比 FIN 算法 与 PrePost 算 
法 性 能 更 好 。 Toot 

针对 现 有 的 最 大 频繁 项 集 挖掘 算法 挖掘 时 间 过 长 、 内 存 消 ,D5 ER 
耗 较 大 的 问题 ， 本 文 提出 了 一 种 基于 构造 链表 B-listi3 的 最 大 及 ~、 
频繁 项 集 挖 掘 算 法 BMFI。 该 算法 在 深度 优先 算法 的 基础 上 利 os 3 foils,s) |e1)(2,2) 
下 B-list ee WA re ER od 图 i 

， 然 后 采用 父 等 价 前 枝 技术 来 缩小 搜索 空间 。 在 多 个 数据 集 3 
上 运行 的 实验 结果 表明 BMFI 比 FPMAX 算法 和 BMEFI 算法 在 (11,8) a,1 f,11(9, 6) 
时 间 效 率 与 空间 消耗 方面 都 有 明显 的 提升 ， 在 稠密 数据 集 下 时 
中 1 DB 对 应 的 TB-tree (minSup=0.4) 

优化 效果 更 为 明显 。 


1 ”相关 知识 算法 1 _ 物 于 TB-tree 
输入 : 事务 数据 库 DB; 
人 输出 ; TB-tree，Li1。 
设 厂 fi,iz…,im} 是 n 个 不 同 项 组 成 的 集合 , 包含 m (0<m 扫描 事务 数据 库 DB 得 到 频繁 1 项 集 Li， 并 按 项 目 支持 度 降序 排 
er 列 ,将 DB 中 的 事务 的 项 按 Li 的 顺序 排列 ,创建 根 节点 root, 初始 化 全 局 
定义 1 若 项 集 X 的 支持 度 大 于 或 等 于 用 户 规定 的 最 小 支 。 变量 star 三 0, finish = 0; 


流 
中 


人 


持 度 阔 值 minSup)， 则 项 集 X 是 频繁 项 集 。 for each different first item p in DB do 

定义 2 若 频 繁 项 集 X 的 任何 超 集 Y 都 不 是 频繁 项 集 ， 则 Call BuildTree(p,Node) 
X 是 最 大 频繁 项 集 。 end for 
1.2 TB-tree end 

针对 现 有 的 频繁 项 集 挖 掘 算法 中 PPC-tree031]，POC-treeIl0] function buildTree(p,parent) 
等 建树 复杂 、 效率 较 低 等 问题 。 本文 引入 了 一 种 TB-treel 邮 4 的 结 Let Tp be a list of transactions in DB which contain prefix p 
构 ,，TB-tree 是 由 一 个 root 根 节点 和 其 项 目前 级 子 树 构成 , 项 目 Creat node N: 

前 绥 子 树 中 的 每 个 节点 由 五 个 部 分 组 成 ， 分 别 是 item-name， N.item-name = item-name ofthe last item inp 

count, parent-pointer, start-build 和 finish-build。TB-tree 的 结构 N.count = count of transactions in 7r， 
与 PPC-tree 相似 , 但 PPC-tree 需要 前 序 和 后 序 两 次 遍历 得 到 每 N.parent = parent 
个 节点 的 pre-order 和 post-order 来 获取 各 节点 信息 。POC-tree N.start-build = ++start 
虽然 只 需要 前 序 或 后 序 一 种 编码 ， 结 构 相 对 PPC-tree 更 加 的 简 for each different first item g in Tp do 
洁 , 但 仍 需 要 一 次 遍历 才能 获得 各 节点 信息 。TB-tree 各 节点 的 Call buildTree(p U g, N) 
start-build 与 finish-build 依据 各 节点 在 TB-tree 的 构建 顺序 中 得 end for 
到 , 即 每 个 节点 的 信息 在 树 构建 完成 时 就 已 获得 ,所 以 比 PPC- N.finish-build = ++finish 
tree 与 POC-tree 的 建立 更 具有 时 间 效 率 。 end function 

如 表 1 所 示 是 事务 数据 库 DB, BMFI 算法 首先 扫描 事务 数 1.3 Br-list 结构 


据 集 ， 并 将 事务 集中 的 事务 按 支 持 度 降序 排列 ， 删 除 掉 支 持 度 定义 3 B-info-code。 在 TB-tree 中 的 每 个 节点 N[(Nstart- 
低 于 minSup 的 事务 .然后 根据 排序 后 的 事物 集 ,构造 TB-tree。 build ，Nfinishbuild) ，sup(N)] 即 节点 NN 的 B-info-code。 其 中 
构造 树 的 优势 在 于 各 节点 信息 在 构建 树 的 过 程 中 就 已 获得 ， 不 。 start-build 和 finish-build 分 别 是 改 点 的 开始 构造 与 结束 构造 的 
需 再 对 树 进行 遍历 ， 详 细 的 构造 过 程 参考 文献 [12]。TB-tree 的 。 顺序 。 

构建 过 程 见 算法 1, 图 1 是 对 应 数据 库 DB 构造 完成 的 TB-tree。 性 质 1 对 于 Ni 和 N2 两 个 节点 而 言 ， 当 上 且 仅 当 Ni 


洽 


录用 入 张 昌 , 等 ; s China VA, 
start-build< N2.start-build 与 Ni.finish-build> N;.finish-build Rsupport += BL curlit+].support 
同时 成 立时 Ni 才 是 Nz 的 祖先 节点 。 else 
例 1 如 图 1 中 的 TB-tree 所 示 ， 节 点 B 与 A 的 B-info- C2 C2-s* BL_HUT[j++].support 
codes 分 别 为 B={[(4,11),4]} 和 Be={[(7,10),3]}, Bs.start-build s=1 
<Be.start -build(4<7)，B,. finish-build>Be. finish-build(11>10)。 end if 
所 以 b 是 a 的 祖先 节点 。 任意 两 节点 都 能 根据 该 性 质 通 过 start- else 
build 与 finish-build 信息 来 判定 是 否 存在 祖先 -子孙 关系 。 C1- Ci-BL cur[i++].support 
定义 4 1- 项 集 的 B-list。 对 于 已 构建 完成 的 TB-tree 与 节 s=1 
点 N， 其 中 名 为 N 的 节点 的 所 有 B-info-code 的 集合 成 为 节点 end if 
N 的 B-list， 记 为 BLN。 这 Ci <threshold or C; <threshold ) then 
例 2 如 图 1 所 示 的 TB-tree 中 ， 节 点 B 的 B-list 是 return NULL 
BLe={[(2,1),1],[(7,4),2]}。 end if 
定义 5 2- 项 集 的 B-list。 假 设 一 个 2- 项 集 {i1,j2}， il 在 end while 
2b 之 前 。 的 B-list 为 {[(sm, /11), cn]; [C812; f12), c12], [CsIn, return R and RSupport 
fn) cin]} ,二 对 应 的 B-list 为 {[(s215 fp1), c21]s [522 p22), c22], 1.4 BMFI 算 法 
[(S2m，zm)，c2m]}， 则 生成 2- 项 集 {i1,ib} 的 B-list 要 遵循 以 下 规 本 节 提 出 了 一 种 基于 B-list 的 最 大 频繁 项 集 挖 掘 算 法 一 
则 。 BMFI 算法 ，BMFI 算法 首先 根据 事务 数据 及 构建 TB-tree 同时 
a) 存 在 [(sli，j，cil (1 入 in) 是 [Gzi，j)，cjl (1<j/ 科 生成 B-lis 然后 根据 B-list 的 连接 原则 将 两 个 频繁 k-1 项 集 连 接 
m) 的 祖先 ， 就 将 [Csi，jD，c2j] 添 加 到 fi 的 B-list 中 。 成 频繁 k 项 集 同时 能 得 到 其 支持 度 。 本 算法 采用 了 全 序 搜索 树 
b) 对 于 {i1,i2} 的 B-list 中 (s, 用 相同 的 节点 信息 ,可 以 将 支持 ”多 为 搜索 空间 ， 然 后 采用 深度 优先 搜索 (DFS) 策略 来 遍历 整个 
度 直接 相 加 ， 合 并 为 [(s,， 有，citc2+*…+cn]。 全 序 搜索 树 。 再 采用 父 等 价 剪 枝 策略 来 缩小 搜索 空间 ， 最 后 采 
定义 6 kk- 项 集 的 B-list。(k 三 3) 假设 两 个 k-1 项 集 分 别 为 ” 用 基于 MFI-tree 的 投影 策略 实现 超 集 检测 来 提高 算法 的 效率 。 


N=iiij2…ik1, M=ii…i N 的 B-list 记 做 {[Gsiy 有 fi1), cn]; [(s12， 1.4.1 基于 B-ist 的 深度 优先 搜索 策略 


©O fi2), c12], [Gin fin), cin]},M{[Gs21, fp1), c21], [C322, f22), c22], ~ 假设 一 个 完整 的 事务 数据 库 ， 其 中 包含 的 数据 集 按照 字典 
与” [GS2m, fzm)，c2m]}， 其 相互 连接 与 合并 生成 k- 项 集 的 规则 与 定义 序 进 行 排列 ， 即 者 项 目 i 出 现在 项 目 j 之 前 ， 可 以 用 i<v 
4 中 的 2- 项 集 生成 过 程 类 似 (参考 文献 [12] 有 详细 过 程 ), 求 交 表示 ， 如 图 2 所 示 是 由 4 个 项 目 (a LL4) 构成 的 
集 的 算法 如 算法 2 所 示 。 字典 搜索 树 结构 。 该 结构 对 于 每 个 节点 而 言 需要 与 右 侧 的 每 个 
算法 2 Intersection 节点 分 别 做 并 集 ， 从 而 生成 该 节点 的 子 集 。 BMFI 算法 采用 将 2 
Intersection(BL cur, BL HUT, threshold) 个 (k-1) 项 集 的 B-list 求 交 集 生 成 k- 项 集 的 B-list。 


ll 


输入 ， 项 集 和 与 立 的 B-list， 最 小 支持 度 阔 值 threshold。 


输出 ;两 个 B-list 的 交集 以 及 支持 度 计 数 。 四 < 


i 全 估 ff 1{d 
Let i=0,j=0,Rsupport=0 2 | 

C1 是 BL_our 的 支持 度 计数 ，Co 是 BL_HUT 的 支持 度 计数 {fabjfa cjtadj {b,c}{b,d} {c,d} 

Let s=1; pe | 

While(i< BL_cursize and j< BL_HUT.size) do 

if(BL curli].start-build > BL _HUT[j].start-build) then {a, b,c} {a,b,d} {a, c,d} {b.c,d} 

if(BL curli] .finish-build< BL_HUTj] .finish-build) 

then {a, b, c, dj 

s=0 


图 2 字典 搜索 树 


if(R.size>0 and R[R.size-1].start-build= BL_ HUT[].start-build) then 


RI[R.size-1].support+= BL _cur[j].support 定义 79 ”在 全 序 搜索 树 中 的 节点 C， 该 节点 的 项 集 记 为 

else C.head， 从 该 节点 可 扩展 的 项 的 集合 记 为 C.tail，C.tail 中 会 包 

ReB-info-code {BL HUTI[j].start-build,BL HUT[j].finish-build, 含 多 个 扩展 项 ， 每 个 扩展 项 集 都 是 C 节点 的 扩展 1- 项 集 。C 节 
BL curli].support} 点 右 侧 同 父 节点 的 集合 记 C.sibling+。 


end if 例 3 如 图 2 所 示 ， 假设 fb，c} 表 示 节 点 C， 则 根据 定义 
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6, C.head={b, c},C.tail={d}, 则 C.HUT={b, c, d}, C.sibling+={ {b, 


dj}}。d 称 为 节点 C 的 1- 扩展 信息 。 


深度 优先 搜索 策略 的 核心 思想 是 检测 每 个 节点 的 C.tail 中 


的 每 个 1- 扩 展 项 i。 计算 C.head Ui 的 支持 度 ， 若 支持 度 均 小 于 
比 时 在 频繁 模式 树 中 C 就 是 一 个 叶 节 点 。 此 时 检测 


minSup 时 ， 


C.head 是 否 是 最 大 频繁 项 集 MFI 中 任意 集合 的 子 集 。 
就 将 C 加 入 到 MFI。 若 C.head Ui 支持 度 均 大 


于 minSup， 则 继 


各 不 是 ， 


名 与 其 人 


续 癌 下 递归 。 这 里 参考 了 文献 [6] 中 将 DFS 策 


略 相 结合 的 思想 和 文献 [8] 中 将 N-list 与 DFS 相 结 合 的 思想 , 从 


而 引入 J 


种 基于 B-list 的 DFS 算法 ， 由 于 B-List 的 高 压缩 率 


以 及 TB-tree 的 高 效 建树 的 特点 ， 所 以 在 挖掘 最 大 频繁 项 集 时 


效率 会 更 高 。 算 法 如 下 所 示 : 
算法 3 基于 B-list 的 DFS 算法 
输入 : ”事务 数据 库 DB 和 minSup; 
输出 : DB 的 所 有 的 MFI。 
MFI—O 


Nhl 


root.heade—O 


root.tail~DB 频繁 项 的 集合 (按照 项 的 支持 度 升序 排列 ) 


为 BL 
Call DFS_based BList(root,NULL,NULL) 
Function DFS_based BList(Current node C,C’s 
BL cur,C.siblingts’BList[] BLS) 
ke 一 C.head 中 支持 度 最 大 的 项 


for each item i in C.tail 


if(BL cur==NULL) 

BL child[i]=BLI1[i] 

else 

C HUToC.head U {1}-{k} 
BL_HUTeBLS 中 记录 C_HUT 的 元 素 

BL child[i]=BL intersection(BL cur,BL HUT) 
endif 

endfor 

for each item i in C.tail 

Cn..heade—C.head U {i} 

Cn..taile— {EC.tailli<rj} 

C_ HUT<-C.headU {i}-{k} 

BLS childe—BL child 

if(BL _child[i].support>minSup) 

DFS_based BList(Cn..head,BL child[i],BLS_child) 
endif 

endfor 

if(C is a leaf and C.head is not in MFI )do 
MFI<—MFIU C.head 

endif 


在 构建 TB-tree 树 完 成 之 后 ， 得 到 了 所 有 的 频繁 1 项 集 的 B-list, 记 


BList 
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1.4.2 优化 策略 


U{y 
S 与 


hl 


性 质 2 设 XeEC.head, yeC.tail, 若 存 在 X 的 事务 集 与 X 
} 完 全 相同 ， 即 tfCO=tCXU{y)， 那 么 YSEC.tail， 都 有 XU 
XU{y}US 的 支持 度 相 同 。 

证 明 由 于 tX)=t(XU{y)), 则 Sup(X)=Sup(XU {yD， 所 以 


任意 包含 X 的 事务 必然 包含 y。 所 以 ， 包 含 S 的 任意 项 集 也 必 


然 包 含 y， 所 以 Sup(XUS)=Sup(XU {y} US)。 


BMFI 算法 根据 性 质 2 采用 了 父 等 价 剪 枝 技术 来 缩小 搜 
索 空 间 。 当 搜索 C 节点 时 ， 若 遇 到 性 质 2 中 的 情况 ， 就 可 


以 将 y 从 C.tail 中 删除 ， 并 放 入 C.head， 这 样 会 提高 挖掘 的 效 


率 并 不 会 影响 MFI 挖掘 的 准确 性 。 


日 


节点 所 表示 的 项 集 不 一 定 是 已 表示 最 大 频繁 项 集 的 子 集 。 同 理 ， 


节点 C 不 是 已 经 挖掘 的 最 大 频繁 项 自 
大 频繁 项 集 。 


了 右 侧 的 邻居 节点 ， 并 
的 子 集 ， 则 该 项 集 是 最 


性 质 3 若 字典 搜索 树 的 节点 C 没 


7 


可 能 是 该 右 


ll 


若 某 节点 表示 的 项 集 是 已 挖掘 到 的 最 大 频繁 项 集 的 子 集 ， 那 么 


该 节 


tree 


tree 树 空 间 过 程 中 发 现 的 单一 路 径 FP-tree 闷 


点 表示 的 项 集 不 是 最 大 频繁 项 集 。 
基于 性 质 3， 本 文 引 入 了 Grahne G 等 四 提出 的 基于 MFI- 
投影 策略 来 实现 超 集 检测 .对 于 自 底 向 上 深度 优先 遍历 FP- 
表 项 集 与 头 项 集中 


a 


(uo: 


的 项 
存在 超 和 
那么 
在 MFI 不 存在 超 集 ， 该 项 集 是 最 大 频繁 项 集 
算法 4 中 有 比较 详细 


构成 的 项 目 集 ， 当 头 表 不 包含 当前 项 ， 那 么 必定 不 会 不 
只 有 在 当前 节点 路 径 上 存在 于 与 项 集 重合 的 部 分 ， 
MFI-tree 就 存在 该 项 集 的 超 集 ， 即 实现 超 集 检测 。 若 该 项 
加 入 到 MFI。 


7 
SS 
/ 


的 过 程 。 
算法 4 基于 MFI-tree 投影 策略 的 超 集 检测 

输入 : 进行 剪 枝 后 按 支 持 度 递 减 排序 后 的 项 集 M 
输出 : 最 大 频繁 模式 树 


int len=M.length; 


if(!headerTable.contains(M[len-1])) 
return false; 

else 

BMFINode 
node=headerTable.get(MI[M .len-1]) 
While(node!=null) 
BMFINode high=node; 
While(high!=null) 
if(high.label==M[len-1]) 
len--; 

high=high.parent; 

if(len==0) /此 时 就 存在 超 旨 


return true; 


ar 


node=node.sibling; 


len=M .length; 
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return false; 


2 ”实验 结果 及 分 析 


于 FPMAX 算法 在 不 同 的 数据 集中 都 保持 着 
所 以 通过 比较 BMFI 与 FPMAX 算法 和 MFIN 算法 在 不 同 数据 


良好 的 性 能 。 


集 上 挖掘 最 长 频繁 项 身 


实验 所 有 的 程序 均 ) 


所 用 的 于 


— 


算法 。 实 验 所 使 用 


的 是 Pumsb、Retail 数据 集 以 及 


仿 证 BMFI 算法 的 有 效 性 。 
] C/C++ 编写 , 实验 环境 为 Inter(R) Core(TMD) 
i5CPU M330@3.1GHzCPU，4GB 内 存 ，64 位 Windows 10 操 
作 系 统 .在 该 环境 下 实现 了 FPMAX 算法 与 BMFI 算法 和 MFIN 


IBM 数据 


生成 器 生成 的 人 工 数 据 集 T10I4D100K( 各 数据 集 参 


示 )。 通 过 改变 最 小 支持 度 
析 了 算法 的 运行 时 间 以 及 内 存 消 耗 情况 。 
所 示 ， 内 存 消耗 情况 对 比如 区 
表 2 


来 进行 频繁 模式 的 


数 如 表 2 所 
空气 , 然后 对 比分 
运行 时 间 对 比如 图 3 


数据 和 


中 


TI10I4D100K 


300 "EMF! 一 一 FMAC 一 一 MFN 


(a) Pumsb 数据 外 


lr 


--s-- BMF| ~ FPMAX 一 上 一 MFIN 


JU\ 


0.25 


(b) Retail 数据 集 


£0" BMF ~ FPMAX —*— MFIN 


(c) T1014D100K 数据 重 


加 
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po" BMFI 一 一 FMA 一 一 MFN 


内 存 消耗 /MB 


0.6 0.65 0.7 


最 小 支持 度 逆 什 


(a) Pumsb 数据 集 


--a-- BMF| -+ FPMAX 一 上 一 MFIN 
200 


内 存 消 耗 /MB 


0.25 0.3 0.35 


最 小 支持 度 阅 值 
(b) Retail 数据 集 


--a-- BMF| -+ FPMAX 一 一 


内 存 消耗 /MB 


MIFIN 


0.25 0.3 0.35 


最 小 支持 度 阅 值 


(c) T1014D100K 数据 自 
图 4 内 存 消耗 对 比 


A 


0.4 


本 实验 将 BMFI 算法 与 FPMAX 算法 和 MFIN 算法 在 不 同 
数据 集 下 的 挖掘 结果 进行 了 分 析 ， 首 先 三 种 算法 在 同一 数据 引 


rt 


同一 支持 度 下 挖掘 出 了 最 大 频繁 项 集 的 内 容 与 数 上 


是 相同 的 ， 


表明 本 算法 是 正确 的 。 Pumsb、Retail、 T1014D100K 数据 集 分 别 


代表 着 币 密 型 、 稀 琉 型 的 数据 集 和 IBM 数据 4 
数据 集 ， 如 图 3 所 示 ， 三 种 算法 的 运行 时 
减少 ， 在 Retail 数据 集中 上 运行 时 ， 虽 然 


成 器 生成 的 人 工 


旧 都 随 支 持 度 增加 而 
三 种 算法 在 各 最 小 文 


持 度 闵 值 情况 下 的 运行 时 间 相 差 不 大 ,但 在 支持 度 阐 值 较 小 时 ， 


BMEFI 算法 的 运行 时 间 上 有 较 显 著 的 优势 。 


在 T10I4D100K 数 


据 集 上 运行 时 ， 当 最 小 支持 度 阔 值 为 0.1 时 ,其 运行 时 间 相 对 于 


FP-max 算法 提升 了 近 1 倍 , 随 着 最 小 支持 度 
算法 运行 时 间 的 优势 逐渐 减 小 ,如 图 4 所 示 , 在 内 存 的 消耗 方面 ， 
在 不 同 的 数据 集中 ， 三 种 算法 的 内 存 消耗 也 是 随 着 最 小 支持 度 
闵 值 的 升 高 而 减 小 ， 在 支持 度 闵 值 较 小 时 ，BMEFI 算法 的 内 存 
消耗 都 明显 少 于 FP-MAX 算法 与 MFIN 算法 。 


阔 值 的 升 高 , BMFI 


结果 表明 BMFI 


算法 在 不 同类 型 数据 集中 都 有 着 较 高 的 时 间 效 率 与 空间 效率 。 


3 ”结束 语 


本 文 提出 了 一 种 新 的 最 大 频繁 模式 挖 


届 算 法 一 BMFI, 该 算 


法 采用 了 基于 B-list 的 高 压缩 率 以 及 高 效 的 求 交 集 的 方法 实现 


支持 度 的 快速 的 计算 ， 同 时 采用 父 等 价 剪 枝 技术 来 缩小 搜索 空 
间 ， 最 后 再 结合 基于 MFI-tree 的 投影 策略 实现 超 集 检测 ， 从 而 
来 提高 算法 的 效率 。 结 果 表 明 , 与 FPMAX 算法 和 MFIN 算法 相 
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比 ，BMFI 算法 具有 较 显 著 的 性 能 优势 。 但 随 着 如 今 互联 网 大 
数据 时 代 的 到 来 , BMFI 算法 还 需要 再 进行 优化 ,例如 在 BMFI 
的 剪 枝 优化 策略 方面 还 有 优化 空间 ， 这 将 是 接 下 来 需要 思考 的 
问题 。 
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